„To iluzja”: badanie Apple podważa największy mit sztucznej inteligencji.

Kilka dni temu firma Apple wywołała kontrowersje w świecie sztucznej inteligencji (AI), publikując badanie , które bezpośrednio dotyczy jednego z dyskursywnych filarów tej technologii: domniemanej zdolności modeli takich jak ChatGPT do „rozumowania”.
Autorzy artykułu zatytułowanego „Iluzja myślenia ” twierdzą, że wbrew pozorom generatywne systemy sztucznej inteligencji nie myślą ani nie rozumują jak ludzie , a nawet „rozumowanie”, które pozornie prezentują , może być kontrproduktywne .
Badania, przeprowadzone przez naukowców z Apple Machine Learning Research , zostały przeprowadzone w momencie, gdy firma z Cupertino najwyraźniej pozostaje w tyle za konkurentami, takimi jak OpenAI , Google i Anthropic, liderami w dziedzinie rozwoju zaawansowanych modeli językowych.
Z tego powodu wielu obserwatorów szybko uznało badanie za próbę zakwestionowania zewnętrznych narracji, a nie za czysto akademicki wkład.
Mimo to treść pracy nie pozostała niezauważona. Apple proponuje nową kategorię modeli zwanych Large Reasoning Models (LRM) , zaprojektowanych w celu generowania pośredniego rozumowania przed dostarczeniem odpowiedzi. Cel: ocena, czy jawne uwzględnienie procesów logicznych poprawia wydajność AI w różnych typach zadań.
„Iluzja myślenia”: artykuł, w którym Apple próbuje obnażyć sztuczną inteligencję.
Aby uniknąć błędów wynikających z danych poznanych podczas treningu, badacze poddali te modele serii syntetycznych łamigłówek, takich jak klasyczna Wieża Hanoi, Skok w Szachownicę, przeprawy przez rzekę i problemy z manipulacją blokami (Blocks World). Scenariusze te zostały specjalnie zaprojektowane tak, aby wymagały logicznego myślenia i planowania krok po kroku .
Wyniki okazały się zaskakujące: chociaż modele LRM wykazały przewagę nad tradycyjnymi modelami w przypadku wyzwań o średnim stopniu trudności, to zupełnie zawiodły, gdy poziom trudności wzrósł .
Co więcej, ten upadek nie był spowodowany brakiem zasobów obliczeniowych, ale bardziej zagadkowym zjawiskiem: „Ich wysiłek rozumowania wzrasta wraz ze złożonością problemu do pewnego punktu, a następnie maleje, pomimo posiadania odpowiedniego budżetu”.
Uderzające jest to, że w prostych testach modele rozumowania wypadają nawet gorzej niż modele standardowe . Oznacza to, że gdy zadania nie wymagają zaawansowanej logiki, nadmierne myślenie może stać się przeszkodą .
„Badanie pierwszego nieudanego ruchu modeli ujawniło zaskakujące zachowanie . Na przykład mogli wykonać do 100 prawidłowych ruchów w Wieży Hanoi, ale nie udało im się wykonać więcej niż 5 prawidłowych ruchów w łamigłówce River Crossing” – dodają autorzy.
Ogólnie rzecz biorąc, badanie wydaje się podważać coraz bardziej rozpowszechnioną narrację , że jesteśmy na progu sztucznej inteligencji na poziomie ludzkim, a nawet AGI ( sztucznej inteligencji ogólnej ).
Apple uważa, że ta idea opiera się na iluzji : myleniu zdolności modeli do werbalizacji logicznych kroków z rzeczywistym zrozumieniem problemów.
W tym sensie wniosek z pracy jest kategoryczny: to, co wydaje się rozumowaniem, jest niczym więcej niż echem wyuczonych wzorców . AI, przynajmniej na razie, nie rozumuje: symuluje . A gdy symulacja zostanie przekroczona poza znane granice, rozpada się .
Apple nie wprowadził jeszcze na rynek własnego modelu, który mógłby konkurować na równych zasadach. (Zdjęcie: Reuters)
Ta wizja kontrastuje z podejściem przyjętym przez innych gigantów technologicznych, którzy wyraźnie włączyli funkcje rozumowania do swoich modeli. OpenAI z GPT-4 , Google z Gemini i Anthropic z Claude mają na celu wzmocnienie tych możliwości, które są postrzegane jako krok w kierunku bardziej autonomicznych i niezawodnych systemów.
Po stronie krytycznej pojawiło się wiele głosów wskazujących, że badanie Apple nie ujawnia poważnej wady, ale po prostu opisuje dobrze znane zjawisko: nadmierne myślenie . To znaczy, że niektóre modele mają tendencję do generowania niepotrzebnie długiego i złożonego rozumowania , co może prowadzić do błędów lub awarii.
Pojawiają się również pytania, czy Apple, nie mając własnej sztucznej inteligencji na równi ze swoimi konkurentami , ma motywację do dyskredytowania postępów innych osób. Firma utrzymuje partnerstwa z graczami takimi jak OpenAI, ale musi jeszcze uruchomić własny model językowy , który konkurowałby na równych zasadach.
Poza intencjami stojącymi za artykułem, prawdą jest, że Apple udało się poruszyć kluczową dyskusję: Co tak naprawdę oznacza „myślenie” dla sztucznej inteligencji? Czy mylimy formę z treścią?
Pośród euforii otaczającej systemy konwersacyjne, Iluzja myślenia stanowi wyzwanie. I choć nie kończy debaty, podważa jedną z najczęściej powtarzanych fantazji chwili: że maszyny w końcu zaczynają myśleć.
Clarin